Apprentissage supervisé pour la catégorisation de documents manuscrits en-ligne
نویسندگان
چکیده
RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne et leur version originale électronique. Les résultats montrent qu’aucune perte significative des performances n’est à signaler lorsque 78 % des termes d’indexation sont correctement reconnus dans les documents à catégoriser. Nous montrons également que lorsque plus de la moitié de ces termes sont mal reconnus, l’utilisation d’une liste de candidats mots permet d’améliorer le taux de classification.
منابع مشابه
Apprentissage incrémental avec peu de données pour la reconnaissance de caractères manuscrits en-ligne Incremental Learning with Few Data for online Handwritten Character Recognition
and key words
متن کاملTLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateu...
متن کاملValidation statistique des cartes de Kohonen en apprentissage supervisé
Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenn...
متن کاملSystèmes d'inférence floue auto-évolutifs. Apprentissage incrémental pour la reconnaissance de gestes manuscrits
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملSLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings
Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...
متن کامل